高分辨率光触觉传感器越来越多地用于机器人学习环境中,因为它们能够捕获与试剂环境相互作用直接相关的大量数据。但是,由于触觉机器人平台的高成本,专业的仿真软件以及在不同传感器之间缺乏通用性的模拟方法,因此在该领域的研究障碍很高。在这封信中,我们将触觉健身房的模拟器扩展到两种最受欢迎​​的类型类型的三个新的光学触觉传感器(Tactip,Digit和Digitac),分别是Gelsight Style(基于图像遮蔽)和Tactip Style(基于标记)。我们证明,尽管实际触觉图像之间存在显着差异,但可以与这三个不同的传感器一起使用单个SIM到实现的方法,以实现强大的现实性能。此外,我们通过将其调整为廉价的4道机器人组来降低对拟议任务的进入障碍,从而进一步使该基准的传播。我们在三个需要触摸感的身体相互交互的任务上验证了扩展环境:对象推动,边缘跟随和表面跟随。我们实验验证的结果突出了这些传感器之间的一些差异,这可能有助于未来的研究人员选择并自定义触觉传感器的物理特征,以进行不同的操纵场景。
translated by 谷歌翻译
一个沿着城市街道行走的人试图对世界各个方面进行建模,这很快就会被许多商店,汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务,不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态,这是代理在世界上成功采取行动的必要和足够的?我们具体地提出了这个问题,并提出了可控制的状态发现算法(AC-State),该算法具有理论保证,并且实际上被证明可以发现\ textit {最小可控的潜在状态},其中包含所有用于控制控制的信息代理,同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型(预测遥远观察结果的动作)组成。 AC-State可以在没有奖励或示威的情况下实现本地化,探索和导航。我们证明了在三个领域中发现可控潜在状态的发现:将机器人组分散注意力(例如,照明条件和背景变化),与其他代理商一起在迷宫中进行探索,并在Matterport House Simulator中导航。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
近年来,机器学习(ML)已更加严重地依赖人群工人来构建更大的数据集以及解决需要人类互动或判断的研究问题。由于人群工人执行的各种任务以及使用了由此产生的数据集的无数方式,因此很难确定何时最好将这些人视为工人,而不是人类受试者。这些困难因政策矛盾而加剧了,一些机构和研究人员将所有ML人群视为人类主题研究,而其他机构认为ML人群工人很少构成人类的受试者。此外,很少有涉及人群工作的ML论文提到IRB的监督,这提出了许多可能不符合道德和监管要求的前景。在本文中,我们专注于自然语言处理的研究,以研究众包研究的适当指定以及ML研究对研究监督所带来的独特挑战。至关重要的是,根据美国的共同规则,这些判断取决于“关于内在”的确定,即收集到的数据与谁以及(或什么)有关的人(或什么)。我们强调了ML提出的两个挑战:(1)相同的工人可以担任多个角色并提供多种信息; (2)与生命科学和社会科学相比,ML研究倾向于接受动态的工作流程,很少有人指出研究问题,而数据共享为未来的研究打开了大门,以提出有关原始研究不同目标的问题。特别是,我们的分析在共同规则中暴露了潜在的漏洞,研究人员可以通过将数据收集和分析分为不同的研究来避免研究伦理的监督。我们提供了一些政策建议来解决这些问题。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
我们认为当前的红外标准,用于优化用户体验,测量太窄的IR空间的一部分。如果IR系统较弱,这些指标缺乏或完全过滤出需要改进的更深层次的文件。如果IR系统相对强,则这些指标欠更深的相关文档,这些文档可以在用户可消化的层次结构或文本摘要中呈现出甚至更强大的IR系统,这些文件甚至可以呈现来自数十或数百个相关文档的内容。我们从过去28年重新分析了超过70个TREC曲目,显示大约一半的欠压排名的文件,几乎所有的缺乏尾部文件。我们展示在2020年的深度学习轨道中,神经系统在排名第一的文件中实际上是近乎最佳的,而在尾部文件上只有BM25的适度增益相比。我们的分析基于简单的新系统导向度量,“雾化搜索长度”,它能够在任何深度准确且均匀地测量所有相关文档。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
大型语言数据集的可用性使数据驱动的方法能够研究语言改变。 Google Books Corpus Unigram频率数据集用于以八种语言调查排名动态。我们观察了1900年至2008年的Unigrams的等级变化,并将其与我们为分析开发的赖特 - 费舍尔灵感的模型进行了比较。该模型模拟中性进化过程,限制没有消失并添加单词。这项工作解释了模型的数学框架 - 用多项式过渡概率写作马尔可夫链 - 以展示单词频率如何变化。从我们的数据和我们的模型中的观察开始,Word Rank稳定性显示出两种类型的特点:(1)排名的增加/减少是单调,或(2)排名保持不变。基于我们的模型,高级词语往往更稳定,而低级词语往往更易挥发。有些词语以两种方式在两种方面发生变化:(a)通过累积小/减少等级和(b)的累积,通过增加/减少等级的冲击。我们所展示的所有语言中的大多数单词都是排名稳定,但并不像中立模型一样稳定。观察到的秒表和斯沃拉斯图单词在八种语言中排名稳定,这表明既定语言的语言符合性。这些签名提示所有语言的Unigram频率都以与纯粹中立的进化过程不一致的方式发生了变化。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译
仿真最近已成为深度加强学习,以安全有效地从视觉和预防性投入获取一般和复杂的控制政策的关键。尽管它与环境互动直接关系,但通常认为触觉信息通常不会被认为。在这项工作中,我们展示了一套针对触觉机器人和加强学习量身定制的模拟环境。提供了一种简单且快速的模拟光学触觉传感器的方法,其中高分辨率接触几何形状表示为深度图像。近端策略优化(PPO)用于学习所有考虑任务的成功策略。数据驱动方法能够将实际触觉传感器的当前状态转换为对应的模拟深度图像。此策略在物理机器人上实时控制循环中实现,以演示零拍摄的SIM-TO-REAL策略转移,以触摸感的几个物理交互式任务。
translated by 谷歌翻译